# === Cell 1: Imports ===
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

p = 0.3
n_samples = 1000
data_bern = np.random.binomial(n=1, p=p, size=n_samples)
emp_mean = data_bern.mean()
emp_var  = data_bern.var(ddof=0)
print(f"Bernoulli(p={p}): Empirical mean={emp_mean:.3f}, var={emp_var:.3f}")
# PMF plot
x = [0,1]
pmf = [ (1-p), p ]
plt.figure()
plt.bar(x, pmf, alpha=0.6, label='Theoretical PMF')
plt.hist(data_bern, bins=[-0.5,0.5,1.5], density=True,
         alpha=0.4, label='Empirical')
plt.xticks(x)
plt.title("Bernoulli Distribution PMF vs. Empirical")
plt.legend()
plt.show()

Bernoulli(p=0.3): Empirical mean=0.298, var=0.209

n, p = 10, 0.4
data_binom = np.random.binomial(n=n, p=p, size=n_samples)
print(f"Binomial(n={n}, p={p}): Emp. mean={data_binom.mean():.3f}, var={data_binom.var(ddof=0):.3f}")
k = np.arange(0, n+1)
pmf_binom = stats.binom.pmf(k, n, p)
plt.figure()
plt.bar(k, pmf_binom, alpha=0.6, label='Theoretical PMF')
plt.hist(data_binom, bins=np.arange(-0.5,n+1.5), density=True,
         alpha=0.4, label='Empirical')
plt.title("Binomial Distribution PMF vs. Empirical")
plt.legend()
plt.show()

Binomial(n=10, p=0.4): Emp. mean=4.027, var=2.392

lam = 3.0
data_pois = np.random.poisson(lam=lam, size=n_samples)
print(f"Poisson(λ={lam}): Emp. mean={data_pois.mean():.3f}, var={data_pois.var(ddof=0):.3f}")
k = np.arange(0, np.max(data_pois)+1)
pmf_pois = stats.poisson.pmf(k, lam)
plt.figure()
plt.bar(k, pmf_pois, alpha=0.6, label='Theoretical PMF')
plt.hist(data_pois, bins=np.arange(-0.5,np.max(data_pois)+1.5),
         density=True, alpha=0.4, label='Empirical')
plt.title("Poisson Distribution PMF vs. Empirical")
plt.legend()
plt.show()

Poisson(λ=3.0): Emp. mean=3.048, var=3.148

mu, sigma = 0, 1
data_norm = np.random.normal(loc=mu, scale=sigma, size=n_samples)
print(f"Normal(μ={mu},σ={sigma}): Emp. mean={data_norm.mean():.3f}, var={data_norm.var(ddof=0):.3f}")
x = np.linspace(-4, 4, 200)
pdf_norm = stats.norm.pdf(x, mu, sigma)
plt.figure()
plt.plot(x, pdf_norm, label='Theoretical PDF')
plt.hist(data_norm, bins=30, density=True, alpha=0.4,
         label='Empirical')
plt.title("Normal Distribution PDF vs. Empirical")
plt.legend()
plt.show()

Normal(μ=0,σ=1): Emp. mean=-0.020, var=1.029

# === Cell 6: Student's t‑Distribution Demo ===
nu = 5
data_t = stats.t.rvs(df=nu, size=n_samples)
print(f"Student’s t (ν={nu}): Emp. mean={data_t.mean():.3f}, var={data_t.var(ddof=0):.3f}")
x = np.linspace(-5, 5, 200)
pdf_t = stats.t.pdf(x, nu)
plt.figure()
plt.plot(x, pdf_t, label='Theoretical PDF')
plt.hist(data_t, bins=30, density=True, alpha=0.4,
         label='Empirical')
plt.title("Student’s t PDF vs. Empirical")
plt.legend()
plt.show()

Student’s t (ν=5): Emp. mean=-0.020, var=1.557

# Cell 2: One-sample z-test function
def one_sample_z_test(data, mu0, sigma):
    n = len(data)
    xbar = np.mean(data)
    z = (xbar - mu0) / (sigma / np.sqrt(n))
    p_val = 2 * (1 - stats.norm.cdf(abs(z)))
    return z, p_val

# Cell 3: Simulation function for sampling distribution
def simulate_sampling_dist(dist_func, params, n, n_sim=10000):
    return np.array([np.mean(dist_func(*params, size=n)) for _ in range(n_sim)])

# Cell 4: Plotting routine
def plot_sampling_distributions(sample_sizes, dist_func, params, scale):
    plt.figure(figsize=(12, 8))
    
    for i, n in enumerate(sample_sizes, 1):
        means = simulate_sampling_dist(dist_func, params, n)
        mu, sd = np.mean(means), np.std(means)
        plt.subplot(2, 2, i)
        plt.hist(means, bins=30, density=True, alpha=0.7)
        x = np.linspace(mu - 3*sd, mu + 3*sd, 200)
        plt.plot(x, stats.norm.pdf(x, mu, sd))
        plt.title(f'n={n} → Mean≈{mu:.2f}, SD≈{sd:.2f}')
        plt.xlabel('Sample Mean')
        plt.ylabel('Density')
        plt.xlim([0, 2])
    plt.tight_layout()
    plt.show()

# Cell 5: Demo run
sample_sizes = [5, 30, 100,1000]
plot_sampling_distributions(sample_sizes, np.random.poisson, (1.0,), scale=None)

# Plotting the standard normal distribution
x = np.linspace(-4, 4, 200)
pdf_standard_norm = stats.norm.pdf(x, loc=0, scale=1)

plt.figure()
plt.plot(x, pdf_standard_norm, label='Standard Normal Distribution')

# Adding vertical lines at -1, -0.1, 0.1, and 1
for vline in [-3, -0.5, 0.5, 3]:
    plt.axvline(x=vline, color='red', linestyle='--', label=f'x_bar={vline}, pdf={stats.norm.pdf(vline):.3f}')

plt.title("Standard Normal Distribution")
plt.xlabel("x")
plt.ylabel("Density")
plt.legend()
plt.show()

x = np.linspace(-4, 4, 200)
pdf_standard_norm = stats.norm.pdf(x, loc=0, scale=1)
ci_lower, ci_upper = -1.96, 1.96
plt.figure()
plt.plot(x, pdf_standard_norm, label='Standard Normal Distribution')

# Adding vertical lines at -1, -0.1, 0.1, and 1
for vline in [-3, -0.5, 0.5, 3]:
    plt.axvline(x=vline, color='red', linestyle='--', label=f'x={vline}')

# Adding 95% confidence interval lines
for ci in [-1.96, 1.96]:
    plt.axvline(x=ci, color='blue', linestyle='-.', label=f'95% CI: x={ci}')

# Shade the area outside the confidence interval
x_outside_lower = np.linspace(-4, ci_lower, 100)
x_outside_upper = np.linspace(ci_upper, 4, 100)
plt.fill_between(x_outside_lower, stats.norm.pdf(x_outside_lower), color='red', alpha=0.5, label='Outside CI')
plt.fill_between(x_outside_upper, stats.norm.pdf(x_outside_upper), color='red', alpha=0.5)

# Add confidence interval lines
#plt.axvline(x=ci_lower, color='blue', linestyle='-.', label=f'CI Lower: x={ci_lower}')
#plt.axvline(x=ci_upper, color='blue', linestyle='-.', label=f'CI Upper: x={ci_upper}')

plt.title("Standard Normal Distribution with Vertical Lines and 95% CI")
plt.xlabel("x")
plt.ylabel("Density")
plt.legend()
plt.show()

Table of Contents¶

Preliminary Knowledge: Statistics (Part II) - Interactive Notebook¶

1. What Is a Random Variable?¶

2. What Is a Parametric Distribution?¶

3. Bernoulli Distribution¶

4. Binomial Distribution¶

5. Poisson Distribution¶

6. Gaussian (Normal) Distribution¶

Standardization Formula¶

5. Student’s t‑Distribution¶

6. Central Limit Theorem in Hypothesis Testing¶

6.1. Sampling Distribution and the CLT¶

6.2 Central Limit Theorem in Hypothesis Testing¶

6.3. One‑Sample z‑Test for a Mean¶

6.4. One‑Sample z‑Test for a Proportion¶